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HE: [目的 /意义 ] 基 于 科学 数据 构建 合作 网 络 , 并 与 传统 出 版 物 合作 网 络 进行 比较 ,从 网 络 分 析 层 面 解 
读 两 个 合作 网 络 的 差异 ,为 科学 数据 管理 工作 提供 借鉴 。[ 方 法 /过 程 ] 以 ClinicalTrials. gov 网 站 的 临床 科学 数 
据 库 为 例 ,利用 爬 忠 抓 取 该 网 站 上 传统 论文 题 录 信 息 以 及 临床 试验 信息 的 元 数据 并 分 别 构建 合作 网 络 , 通 过 复 


杂 网 络 分 析 比 较 试 验 合 作 机 构 网 络 与 论文 合作 机 构 网 络 之 间 的 异同 。[ 


结果 /结论 ] 基于 科学 数据 集 和 论文 数 


据 集 的 元 数据 构建 的 合作 网 络 ,与 仅 从 论文 数据 集中 提取 元 数据 构建 的 网 络 相 比 ,前 者 能 够 展现 更 丰富 准确 的 


使 作 信息 ,从 而 揭示 科学 数据 管理 和 开放 共享 的 重要 性 。 
复杂 网 络 分 析 科学 数据 库 


> 关键 词 : 合作 网 络 ”科学 合作 
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临床 试验 


科学 研究 在 实验 型 科研 、 理 论 型 科研 .计算 型 科研 
世 局 已 经 进入 了 数据 密集 型 科研 的 大 数据 时 代 。 数 据 
是 科学 发 现 的 基础 和 驱动 ,以 处 理 和 分 析 海 量 数据 作 
为 发 现 知识 的 基本 特征 ,大 数据 也 被 誉 为 科学 研究 的 
“第 四 范式 ” 。 随 着 2018 年 1 月 23 日 《科学 数据 管理 
办 淡 》… 的 全 面 通过 实施 ,更 凸显 了 数据 互通 的 重要 
性 5 难 而 加 快 了 开放 科学 数据 仓储 的 发 展 ,科学 家 们 可 
以 全 受 时 间 地 理 的 限制 进行 各 方面 的 合作 ,基于 科学 
试验 数据 的 新 兴 合 作 网 络 将 会 受到 越 来 越 多 的 重视 。 
研究 科学 合作 最 常用 的 方式 即 根据 出 版 物 中 元 数据 来 
提取 合作 关系 ,还 可 以 通过 问卷 调查 .定性 访问 或 者 三 
种 方法 的 任意 组 合 来 进行 探究 。 但 是 每 一 种 方法 对 合 
作 关 系 的 研究 都 存在 一 定 的 局 限 性 ,可 能 会 存在 高 估 
或 者 低估 的 现象 ” 。 仅 仅 通过 传统 论文 信息 探究 合作 
网 络 已 经 不 能 很 好 地 反映 一 门 学 科 的 发 展 ,而 科学 数 
据 已 经 成 为 非常 重要 的 信息 资源 ,通过 分 析 能 从 中 挖 
据 到 丰富 的 知识 。 为 适应 大 数据 发 展 形势 ,需要 加 强 


个 研究 的 传统 论文 题 录 信息 以 及 临床 试验 合作 信息 的 
元 数据 ,从 而 构建 科学 试验 合作 网 络 以 及 论文 合 著 网 
络 ,比较 分 析 他 们 的 异同 。 


2 相关 研究 


2.1 科学 数据 资源 库 

科学 数据 资源 库 如 今 被 使 用 得 非常 频繁 ,但 是 很 
少 有 准确 的 定义 ,虽然 如 此 ,科学 家 们 对 其 功能 和 特征 
都 有 一 种 隐 式 的 共识 一 一 即 通 过 收集 注册、 观察 和 创 
造 得 出 的 各 种 实验 数据 观察 数据 、 统 计数 据 等 , 它 可 
以 是 论文 后 附带 的 实验 数据 ,也 可 以 是 独立 的 研究 数 
据 , 包 括 对 数据 进行 描述 的 元 数据 .数据 集 以 及 数据 相 
关 的 出 版 物 ” 。 它 还 可 以 提供 额外 的 数据 服务 ,包括 
访问 、 导 入、 导出 处理、 回 档 以 及 跟踪 和 链接 到 出 版 物 
或 外 部 网 站 等 ” ,这些 数据 是 免费 的 , 且 在 获取 、 复 用 
上 没有 知识 产权 或 其 他 机 构 的 限制 ,数据 的 使 用 完全 
根据 数据 拥有 者 自己 的 意愿 ” 。 近 几 年 ,开放 科学 数 
据 得 到 越 来 越 多 的 重视 ,很 多 国家 、 机 构 .大 学 都 在 建 
立 开 放 的 科学 数据 资源 库 ,目的 主要 是 进行 数据 的 复 


和 规范 科学 数据 管理 ,同时 充分 挖掘 其 中 的 潜在 价值 。 
本 文 以 ClinicalTrials. gov. 网 站 的 临床 试验 数据 库 
为 例 ,通过 疏 虫 抓 取 了 该 网 页 的 项 目 研究 数据 ,提取 每 


用 与 共享 "”。 很 多 开放 科学 数据 资源 库 要 支持 整个 
领域 ,所 以 采用 了 复杂 的 技术 去 运行 和 维护 ,这 就 意味 
着 科学 数据 仓储 的 成 本 高 郧 ,因此 这 些 数据 仓储 有 很 
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强烈 的 意愿 被 使 用 ,在 国家 政策 和 法 规 的 支持 下 被 广 
泛 推广 ,由 此 科学 数据 仓储 正在 影响 着 科学 研究 的 共 
享 行为 ,影响 着 科学 合作 行为 -9 。 例 如 ,资源 型 数据 
库 有 物理 学 领域 的 LIGO 数据 网 格 ,用 来 支持 激光 重力 
波 观测 试验 , 约 有 500 名 科学 家 参加 ,其 数据 对 外 公开 
服务 。 在 地 球 空间 科学 领域 中 ,美国 国家 基金 会 
(NSF) 和 美国 国家 海洋 局 ( NOAA ) 资助 的 CODIAC 数 
据 库 为 地 球 物理 研究 提供 服务 ""。 典 型 的 参考 型 数 
据 库 包括 蛋白 质数 据 库 PDB 基因 序列 数据 库 Gen- 
Bank 法 国 斯 特 拉 斯 堡 天 文 数据 库 SMBAD .欧洲 分 子 
生物 学 实验 室 的 核 苷 酸 序列 数据 库 EMBL 55, 3x 
些 数据 资源 存储 库 的 使 用 对 科学 工作 影响 的 程度 以 及 
对 科学 家 们 ,合作 机 构 合作 行为 的 影响 程度 都 是 未 知 
的 5 在 笔者 探究 这 些 数据 仓储 的 出 现 对 各 个 领域 科学 
家 信 作 行为 的 结构 和 规模 的 影响 之 前 ,首先 要 回答 更 
加 颖 本 的 问题 一 -科学 家 们 在 使 用 这 些 数据 库 时 进行 
科 澡 试验 合作 的 结构 特点 是 什么 ? 
208 复杂 网 络 分 析 合 作 网 络 
5 结构 和 规模 的 研究 涉及 到 网 络 中 的 组 成 成 员 、 领 
域 同 的 相互 关联 、 团 队 的 大 小 等 ,因此 研究 合作 网 络 的 
结 梅 和 规模 最 常 采用 的 方式 是 复杂 网 络 分 析 ,其 中 最 
各 的 就 是 R. Albert, A. L. Barabási 和 M. E. J. New- 
måns A. L. Barabási 等 对 合 著 网 络 随时 间 演 化 的 现象 
JETER ,2001 年 M. E. J. Newman 利用 社会 网 络 分 
榨 溪 (SNA) 对 合 著 网 络 的 研究 发 现 一 个 科学 家 只 需 经 
过 匆 到 六 个 人 就 可 以 与 其 余 任何 一 个 科学 家 取得 联 
系 5 科 学 界 似乎 形成 了 一 个 “小 世界 ”“” , H. Yang 
等 加 发 现 ,个 体 节点 通过 和 高 密度 的 邻近 节点 建立 联 
系 能 够 构建 一 个 强 强 联合 的 网 络 。A. Abbasi 4605 pr 
究 了 科研 合作 网 络 的 变化 趋势 。G. Laudel 将 科研 合作 
定义 为 “一 项 由 多 个 参与 者 进行 系统 合作 ,以 达到 研究 
的 目的 ,从 而 获得 相应 的 收益 ”的 研究 活动 ', 现 如 今 
合作 已 经 成 为 科学 生产 力 发 展 的 主要 动力 。 本 文 从 科 
学 数据 资源 库 中 提取 两 个 合作 网 络 ,一 个 是 在 Clinical- 
Trials. gov 网 站 注册 的 临床 试验 机 构 的 合作 网 络 , 另 一 
个 是 基于 这 些 试验 发 表 论 文 机 构 的 合作 网 络 。 
2.3 ”科学 数据 集 的 合作 网 络 研究 

2018 年 1 月 23 日 (科学 数据 管理 办 法 ) 的 实施 ， 


于 出 版 物 的 元 数据 ,而 且 开 始 面向 专利 ,数据 仓储 等 ， 
比如 M. Meyer FU S. Bhattacharya 首次 将 专利 文献 与 论 
文 进 行 比 较 , 虽 然 两 者 存在 很 多 不 同 点 ,但 是 在 计量 上 
其 实 有 很 多 相似 之 处 ,可 以 将 论文 计量 的 思路 运用 在 
专利 分 析 上  。J. Singh ”通过 对 专利 合作 网 络 的 控 
究 得 出 专利 合作 对 于 未 来 信息 流动 起 到 推动 作用 的 结 
论 。 但 是 目前 ,不 管 是 国内 还 是 国际 上 ,关于 数据 集合 
作 的 研究 文献 非常 少 ,2016 年 ,为 探讨 科研 合作 和 大 
规模 的 数据 仓库 在 基因 组 学 领域 的 影响 ,M. R. Costa ^ 
基于 GenBank 在 大 型 数据 仓库 中 进行 元 数据 追踪 ,从 
传统 出 版 物 的 合作 和 数据 集 的 合作 中 分 析 合 作 模式 ， 
发 现 联 合 分 析 相 关 的 不 同 数据 集 网 络 能 够 挖掘 出 更 丰 
富 的 信息 。 陈 晓 燕 ”构建 了 WEB 数据 集 和 论文 合 著 
SCH 数据 集 并 从 二 值 网 络 和 加 权 网 络 等 角度 探讨 了 不 
同 数据 集 的 异同 。 由 此 本 文 受 此 启发 ,将 论文 计量 运 
用 在 数据 集 计 量 上 ,基于 它们 与 论文 一 样 ,拥有 数据 持 
有 者 ,合作 者 ,研究 人 员 等 元 数据 属性 。 


3 ”研究 方法 


3.1 具体 方法 

本 人 研究 运用 计量 学 指标 ,对 ClinicalTrials. gov 网 站 
注册 的 临床 试验 和 基于 试验 发 表 的 论文 等 情况 进行 分 
析 ; 运 用 Python 编程 完成 原始 数据 向 Netdraw 所 需 网 
络 文件 的 转换 和 基本 统计 指标 的 计算 ;运用 Python 生 
成 合作 试验 机 构 与 论文 合作 机 构 的 共 现 网 络 文件 ,并 
转化 为 相应 的 合作 网 络 文件 ,采用 Ucinet 和 Pajek 软件 
处 理 上 述 合作 网 络 并 计算 各 项 指标 ,其 中 Ucinet ^ 和 
Pajek 是 综合 性 基于 社会 网 络 的 文献 信息 分 析 工 具 ， 
能 够 支持 大 型 的 数据 处 理 , 导 入 的 数据 需要 对 其 进行 
加 工 形成 网 络 格式 或 者 矩阵 形式 。 本 研究 涉及 到 的 方 
法 包括 文献 计量 法 、 数 理 统计 法 、 社 会 网 络 分 析 法 
(SNA) ,其 中 社会 网 络 分 析 法 是 基于 社会 网 络 中 行为 
者 之 间 关 系 的 量化 研究 ,主要 通过 点 度 中 心性 、 中 间 中 
心性 和 接近 中 心性 3 个 指标 来 进行 衡量 。 
3.2 数据 来 源 

研究 科学 合作 最 常用 的 方式 即 根据 出 版 物 中 元 数 
据 来 提取 合作 关系 ,元 数据 包括 作者 ,机 构 ,期刊 , 日 期 
等 题 录 信 息 , 基 于 此 来 研究 合作 网 络 可 能 会 存在 高 佑 


极 大 地 推动 不 同 领域 内 科学 数据 之 间 、 科 学 数据 与 其 
他 领域 数据 之 间 的 流动 融合 ,促进 域内 专项 研究 与 交 
又 学 科 的 合作 研究 。 学 术 界 对 科学 合作 进行 研究 的 成 
果 比 较 多 ,但 是 绝 大 多 数 限于 以 科学 论文 作为 研究 对 
象 ,现在 对 合作 网 络 的 探究 开始 有 了 突破 ,不 仅 不 再 基 
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或 者 低估 的 现象 。 本 文选 择 了 ClinicalTrials. gov 网 站 
作为 数据 源 ,从 数据 库 中 进行 元 数据 的 提取 , 相 比 于 仪 
仅 提 取出 版 物 的 元 数据 ,本 文 的 方法 使 得 合作 研究 更 
加 精确 。 

ClinicalTrials. gov 网 站 是 全 球 最 大 的 临床 试验 登 


徐 满 洁 , ATA, MR. 基于 科学 数据 的 合作 网 络 研究 
62(15) :83 =91. 
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记 网 站 ,提供 了 由 企业 或 政府 申报 的 最 新 的 有 关 临 床 
试验 的 信息 ,可 通过 ClinicalTrials. gov 网 站 检索 到 全 球 
正在 进行 的 独立 开展 或 国际 多 中 心 合 作 开 展 的 临床 试 


最 终 获 得 164 758 条 有 研究 价值 的 注册 信息 ,其 中 提供 
了 相应 出 版 物 的 有 45 459 条 ,参与 合作 (至 少 与 一 个 
机 构 合 作 的 ) 的 有 58 954 条 。 基 于 出 版 物 数据 以 及 科 


验 ” 。 本 次 分 析 的 数据 是 截止 至 2016 年 的 全 部 已 完 
成 试验 ,该 网 站 提供 研究 目的 、 研 究 类 型 .提交 时 间 Hg 
助 信息 .NCT 代码 合作 机 构 以 及 相应 的 发 表 的 论文 等 
信息 。 

3.3 数据 收集 


ClinicalTrials. gov 


网 站 允许 抓 取 (https://www. 
clinicaltrials. gov/robots. txt) ,而 且 可 以 通过 适合 抓 取 的 
网 站 模式 进行 综合 .无 重复 抓 取 (https ;// www. clinical- 
trials. gov/ct2/crawl) 。 和 截至 2016 年 12 月 ,该 网 站 共有 
232 840 项 临床 试验 ,其 中 23 551 项 试验 提供 了 研究 结 
285209 059 项 试验 没有 提供 结 采 的 主要 原因 包括 正在 
进 每 招募 的 ,试验 正在 进行 中 或 者 由 于 研究 人 员 的 意 

大 愿 提 供 。 经 过 清洗 ( 除去 重要 信息 缺失 重复、 状 
S 和 的 信息 ) 得 到 227 503 条 数据 ,首先 对 所 有 数 
据 进 行 了 描述 性 分 析 。 笔 者 又 将 检索 范围 定 为 在 
Clinical Trials. gov 网 站 上 首次 提交 时 间 ( First Received 
Dfte) 为 2008 年 至 2016 年 的 全 部 注册 的 临床 试验 , 共 
4182 065 条 注册 信息 ,对 其 进行 进行 清洗 .规范 化 ， 
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学 数据 库 之 间 的 差异 ,本文 提出 了 以 下 几 个 问题 :中 除 
了 在 传统 出 版 物 的 题 录 信息 中 提取 合作 信息 ,在 科学 
数据 库 中 是 否 能 够 提取 更 加 丰富 的 合作 元 数据 ;四 基 
于 研究 发 表 的 出 版 物 的 合作 网 络 与 临床 试验 的 合作 网 
络 是 否 存在 结构 上 的 差异 。 针 对 上 述 问题 ,本 文通 过 
描述 性 统计 、 网 络 密度 、 网 络 平均 距离 .点 度 中 心性 、 中 
介 中 心性 等 指标 来 进行 研究 。 
4 ”试验 项 目 基本 合作 情 ; 
4.1 试验 合作 网 络 的 基本 数据 

笔者 对 整理 后 的 数据 进行 研究 与 分 析 , 通 过 统计 
和 计算 经 过 预 处 理 的 原始 数据 集 ,最 终 得 到 了 2008 — 
2016 年 在 网 站 上 提交 的 数据 集合 作 网 络 的 基本 数据 ， 
这 些 指 标 分 别 是 机 构 数 目 、 连 边 数 目 、 提 交 试 验 数 目 、 
平均 试验 数目 平均 度 、 网 络 密度 、 网 络 直径 、 平 均 路 径 
长 度 以 及 平均 聚 类 系数 。 笔 者 使 用 Ucinet 计算 出 具体 
的 数值 以 便于 进行 分 析 ,详细 信息 如 表 1 所 示 : 


© R1 2008-2016 年 试验 项 目 合作 网 络 基本 信息 


" 2008 2009 2010 2011 2012 2013 2014 2015 2016 08 - 16 
ETTm 301 366 423 433 492 540 659 748 643 3 484 
数目 3 708 3 744 4 994 5 228 5 830 6 752 8 738 11 300 8 212 99 012 

GO ELE 1 507 1 529 1 803 1777 1 902 2 039 2511 2 653 247 18 192 

Lap tpi FU 5 4.2 4.3 4.1 3.9 3.8 3.8 3.5 3.8 5.5 
_ 网 络 的 平均 度 24. 64 20. 46 23.61 24.15 23.7 25.01 26.52 30.21 25.54 56.84 

Chage 0.0413 0.028 2 0.028 1 0.028 1 0.024 2 0.023 3 0.020 2 0.020 3 0. 02 0. 008 2 

网 络 直径 6 8 8 8 9 9 10 9 9 12 
平均 路 径 2.989 3.233 3.417 3.87 3.635 3.602 3.569 3.606 3. 803 3.35 
平均 聚 类 系数 0. 069 0. 489 0. 486 0. 501 0. 482 0. 502 0. 482 0. 504 0. 507 0. 469 


考虑 到 数据 规模 不 能 太 大 而 超过 所 选 软件 的 处 理 
能 力 ,也 不 能 小 到 无 法 分 析 其 统计 性 质 , 因 此 本 文选 取 
了 2008 年 至 2016 年 期 间 并 且 合作 机 构 共 现 频次 大 于 
2 的 合作 数据 ,其 中 每 组 具体 的 节点 数 即 机 构 数 见 表 
1 ,每 年 的 节点 数 均 在 300 到 700 之 间 , 去 掉 重复 的 共 
^H 3 484 个 节点 ,由 于 2016 年 很 多 项 目 在 招募 中 ,数据 
不 完整 ,但 是 通过 前 几 年 的 趋势 能 发 现 每 年 提交 试验 
的 机 构 数 是 逐年 递增 的 ,临床 试验 的 项 目 合 作 网 络 规 
模 在 不 断 地 扩大 。 相 比 机 构 数 目 , 网 络 的 连 边 数目 则 
跨度 较 大 ,在 3 000 到 12 000 之 间 。 从 表 1 中 看 出 
2008 年 到 2016 年 网 络 密度 在 0.02 -0.05 之 间 , 可 见 


这 9 组 数据 集 的 网 络 较为 稀 朴 ,团队 合作 紧密 度 一 般 。 
每 年 平均 路 径 长 度 在 2 到 4 之 间 , 总 体 为 3.35 ,这 说 明 
临床 医学 实验 领域 中 ,任意 一 个 机 构 都 是 可 以 通过 很 
少 的 中 间 人 (2 - 4 个 左右 ) 到 达 其 他 任意 一 个 机 构 。 
该 网 络 具有 明显 的 小 世界 效应 ,说 明 该 领域 信息 畅通 
性 强 ,科研 人 员 合作 交流 渠道 较 快 捷 , 信 息 传播 速度 较 
高 。 但 是 随 着 时 间 的 变化 ,平均 路 径 在 不 断 变 长 ,主要 
的 原因 是 越 来 越 多 的 机 构 参与 到 合作 中 来 ,网 络 的 规 
模 在 不 断 地 扩大 。10 组 数据 集 均 具有 和 较 低 的 平均 了 
类 系数 ,其 中 2008 年 的 平均 聚 类 系数 最 低 , 其 他 都 在 
0.4 到 0.5 之 间 , 系 数 很 相近 ,通过 观察 2008 年 的 机 构 
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数 以 及 连 边 数目 ,平均 聚 类 系数 不 应 该 如 此 低 , 因 此 本 
文通 过 调查 原始 数据 发 现 ,2008 年 的 合作 的 国家 跨度 
很 大 ,合作 较为 分 散 , 结 点 的 聚 类 系数 普遍 低 。 

4.2 试验 合作 网 络 重要 属性 分 析 

4.2.1 提交 试验 数论 文 数 .平均 机 构 数 对 2008 - 
2016 年 中 至 少 合作 3 次 的 项 目 进行 合作 规模 的 统计 ， 
不 仅 统计 了 每 个 试验 的 平均 机 构 数 , 也 统计 每 篇 论文 


网 络 更 加 符合 指数 截断 形式 的 寡 律 形式 ” , 同 很 多 其 
他 的 科研 合作 网 络 一 样 具有 无 标 度 特性 ,表明 临床 医 
学 领域 机 构 试验 合作 网 络 会 通过 增添 新 节点 而 继续 扩 
张 ,而 新 节点 会 择优 连接 到 具有 大 量 连接 数 的 节点 上 ， 
说 明 少 数 的 机 构 对 于 临床 医学 试验 合作 网 络 整体 结构 
形成 有 重要 作用 ,他们 的 研究 方法 ,关注 焦点 的 改变 会 
对 该 领域 的 发 展 产 生 重 要 影响 。 比 如 节点 度数 最 高 前 


平均 机 构 数 ,以 便于 对 比 发 现 差异 。 表 2 列 出 了 每 年 
论文 平均 机 构 数 和 试验 平均 机 构 数 ,每 年 一 篇 论文 的 
平均 机 构 数 均 大 于 4, 每 年 一 个 试验 项 目的 合作 机 构 
均 大 于 3, 两 个 合作 网 络 的 变化 趋势 是 类 似 的 , 正 验 证 
了 M. E. J. Newman 等 曾 对 此 问题 进行 总 结 ,归结 其 原 
因 是 该 领域 的 实验 科学 研究 与 理论 研究 同等 重要 1。 
全 是 可 以 发 现 篇 平均 机 构 数 和 项 目 平均 机 构 数 呈 下 降 
趋 扬 ,表明 机 构 之 间 合 作 的 趋势 在 不 断 下 降 , 说 明 在 使 
用 大型 或 复杂 仪器 的 实验 研究 (如 医学 研究 领域 ) 中 ， 
从 和 险 现 象 是 并 不 是 普遍 的 ,这 与 笔者 的 预测 不 一 样 , 因 
面 笔者 将 进行 深入 的 研究 并 分 析 其 原因 。 论 文 网 
篇 论文 合作 的 机 构 最 多 达到 16 到 34 之 间 , 而 
试验 项 目 参与 合作 的 机 构 数 最 大 值 在 39 到 92 之 
间 s 记 说 明 在 试验 项 目 中 存在 着 大 范围 机 构 合作 研究 
的 现象, 而 论文 的 合作 范围 则 较 小 ,这 种 现象 与 笔者 的 
首 广 判断 是 一 至 的 ,由 于 临床 医学 试验 周期 长 ,所 需 次 
源 多 ,其 合 车 范围 较 大 。 结 合 平均 机 构 数 的 数据 可 以 


PN 


JR RED HG WEE RC mne 3c 8 e fes de —. 


ss Bp ELA E PAS 
EAE ME , E HC FELIS ABC EAK 


| 


ERI. 
(Q2 合作 文献 (试验 ) 中 的 平均 机 构 数 和 最 多 机 构 数 
年 份 。 论文 平均 试验 平均 。 论文 最 多 WERS 
机 构 数 机 构 数 机 构 数 机 构 数 
2008 3.3 5 16 39 
2009 5.2 4.2 23 39 
2010 5.8 4.3 24 41 
2011 5.3 4.1 22 32 
2012 4.9 3.9 14 43 
2013 4.8 3.8 12 62 
2014 4.8 3.8 18 92 
2015 4.3 3.5 34 42 
2016 4.9 3.8 32 83 
4.2.2 度 分 布 使 用 Pajek 软件 的 degree 计算 功能 ， 


得 到 试验 项 目 合作 网 络 的 度 分 布 情况 见 图 1, 度 的 范 
围 跨 越 性 较 大 ,从 2 到 722 ,并 且 主 要 集中 在 50 以 下 ， 
在 该 合作 网 络 中 ,由 图 1 可 知 其 分 布 具 有 明显 的 长 尾 
寺 征 。 正 如 M. E. J. Newman 等 的 研究 发 现 ,科学 合作 
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三 位 分 别 是 Johns Hopkins University ( 722 ) , University 
of California ( 708 ) , Massachusetts General Hospital 
(672) ,这 3 个 机 构 在 这 个 领域 扮演 着 非常 重要 的 角 
色 。 


度 分 布 (degree distribution) 


“ne 
EN od se a 


50 100 150 200 250 300 350 
度 


图 1 试验 项 目 合 作 网 络 度 分 布 


由 此 想到 基于 上 述 试验 而 发 表 的 论文 合作 网 络 的 
度 分 布 是 否 与 其 存在 差异 ,笔者 同样 将 论文 的 合作 机 
构 的 数据 导入 Pajek 软件 中 ,得 到 论文 合作 网 络 的 度 分 
布 见 图 2, 可 以 发 现 横 坐标 与 纵 坐标 的 刻度 明显 变 小 ， 
说 明 论 文 合作 网 络 规模 比试 验 项 目 合作 网 络 的 规模 要 
小 , 度 分 布 的 跨度 为 2 到 184 , 远 小 于 试验 合作 网 络 ,但 
它 同样 具有 长 尾 特征 ,同样 符合 过 律 分 布 , 同 样 具 有 无 
标 度 特性 ,节点 度数 最 高 前 三 位 分 别 是 Columbia Uni- 
versity (184) „Massachusetts General Hospital( 181 , Uni- 
versity of California (177 ) ,论文 合作 网 络 和 试验 合作 网 
络 并 不 是 一 样 的 ,论文 合作 较 多 的 机 构 或 者 说 在 临床 
医学 这 个 领域 内 学 术 成 就 处 于 中 心地 位 的 机 构 并 不 一 
定 在 试验 项 目 合作 中 占据 重要 地 位 。 同 时 ,临床 试验 
合作 网 络 节点 度数 跨度 很 大 ,最 大 度数 达到 722 之 间 ， 
分 化 和 抱团 现象 严重 ,存在 着 对 临床 医学 领域 影响 力 
较 大 的 机 构 并 且 经 常 性 的 进行 合作 ;而 论文 对 应 的 节 
点 度 较 低 ,节点 数 对 应 最 多 的 2, 说 明 论 文 网 络 相对 于 
试验 项 目 网 络 不 会 存在 严重 的 抱团 现象 ,合作 的 可 能 
性 和 选择 比较 多 。 


RE, ITR, RR. 基于 科学 数据 的 合作 网 络 研究 


| TTA 会 作 期 十 | 
以 ClinicalTrials. gov 临床 试验 数据 为 例 [ et hipax n HW 20 018; 3 


62(15) :83 - 91. 
- BESETE epee disvibution) 之 多 ,更 加 说 明 仅仅 从 论文 的 角度 来 衡量 一 个 机 构 的 
90 科研 能 力 和 合作 特点 是 以 偏 概 全 的 。 
ii X3 不 同 论文 数量 的 项 目 数 分 布 
计 60 论文 数 项 目 数 论文 数 项 目 数 论文 数 项 目 数 
数 50 0 162 515 14 516 28 97 
1 30 213 15 416 29 87 
30 
Wi 2 5 16 379 30 66 
i 3 8 616 17 360 31 -40 610 
0 ai 4 7285 18 284 41 -50 271 
20 40 60 80 100 120 140 160 180 
E 5 3 634 19 264 51 - 60 140 
. 6 2 702 20 221 61 -70 78 
2 论文 合作 网 络 度 分 布 
7 1 896 21 217 71-80 49 
8 1 445 22 176 81 -90 23 
IH B 4E EBAÀ Xd edem 
5 ”试验 项 目 合作 与 其 发 表 论文 合作 情况 FÉ x ES EDT 
5.1 项 目 发 表 论文 情况 分 析 10 992 24 163 101 -110 19 
污 科 学 论文 更 是 衡量 “科学 生产 力 ”的 重要 指标 " is - EE Es 
12 643 26 124 121 - 130 3 
inicalTrials. gov 数据 库 中 除了 提供 相关 的 实验 项 
13 581 27 135 >130 12 


旦 信息 ,还 提供 了 基于 该 项 目 所 发 表 的 论文 信息 ,因此 
由 发 表 ; 耸 文 数 进行 递增 排列 ,探究 临床 医学 试 
pode cU RE I1. MARI 中 可 以 发 现 ,有 162 512 
全 玉 目 数 并 没有 发 表 相应 的 论文 ,占据 了 全 部 项 目 数 
1569. 8% 左右 ,这 是 相当 大 的 比例 ,并 且 大 部 分 项 目 
发 表 的 论文 数 集中 在 1 - 10 篇 ,其 中 有 很 多 合作 规模 
较 兴 的 试验 项 目 发 表 的 论文 不 多 其 至 没有 发 表 论 文 ， 
(Fiji Pfizer ( 目前 全 球 最 大 的 以 研发 为 基础 的 生物 制药 
Ai) 在 ClinicalTrials. gov 中 提交 了 1 174 个 试验 项 
HEH 803 个 实验 项 目 没有 发 表 任何 论文 , 约 占 了 
68740 左右 ,甚至 有 很 多 与 多 个 机 构 进行 合作 的 项 目 
谨 兽 有 提供 任何 论文 信息 ,是 否 这 部 分 试验 发 表 了 专 
利 而 不 是 论文 ? 经 
Myers Squibb 在 网 上 合作 的 试验 有 19 个 ,其 中 有 14 个 
都 是 基于 Apixaban 的 临床 试验 研究 ,但 是 这 14 个 项 目 
中 只 有 2 个 项 目 发 表 了 论文 ,通过 专利 调查 ,发现 Pfi- 
zer 和 Bristol -Myers Squibb 在 欧洲 专利 数据 库 中 检索 到 
其 在 2016 年 10 月 25 日 发 表 名 为 APIXABAN FORMU- 
LATIONS 的 专利 , 正 是 在 试验 提交 时 间 的 区 间 内 。 

见 如 果 仅仅 以 论文 合作 情况 作为 元 数据 探究 合 
明显 受到 了 制约 。 这 也 回答 了 为 什么 上 文 探究 提交 试 

验 数 以 及 论文 数 的 平均 机 构 数 时 发 现 ,合作 率 在 下 降 ， 
这 很 有 可 能 是 因为 发 表 了 相关 专利 ,尤其 是 在 临床 医 
学 这 个 非常 重视 专利 和 知识 产权 的 领域 。 从 另 一 角度 
还 可 以 发 现 有 部 分 项 目 发 表 的 论文 数 非 常 多 ,如 发 表 
T 130 篇 以 上 的 项 目 数 就 有 12 个 ,平均 一 个 项 目 发 表 
约 为 11 篇 论文 ,可 见 还 有 项 目 带 来 的 论文 产量 是 如 此 


经 过 网 站 调查 ,发 现 Pfizer 和 Bristol - 


5.2 合作 网 络 对 比分 析 

上 述 研究 发 现 ,仅仅 通过 研究 论文 的 合作 网 络 是 
很 难 精确 探究 科学 合作 网 络 的 ,因为 很 多 试验 项 目 由 
于 商业 性 质 ， a 个 人 因素 等 并 没有 发 表 相 应 的 

论文 ,尤其 是 临床 医学 这 类 领域 ,很 有 可 能 会 以 专利 的 

形式 展现 试验 成 果 , 反 过 来 有 些 机 构 一 段 时 间 内 发 表 
的 合作 论文 很 可 能 仅 基 于 一 次 试验 项 目的 合作 。 因 此 
试验 项 目的 合作 网 络 和 基于 这 些 项 目 发 表 论 文 的 合作 
网 络 应 当 存 在 异同 。 下 面 将 从 网 络 密度 ,平均 路 径 长 
度 .中 心性 等 角度 进行 分 析 。 
5.2.1 合作 密度 分 析 2008 -2016 年 中 有 8 275 个 
机 构 共 进行 了 180 139 项 试验 (删除 了 由 于 合作 、 转 
` 更 正 等 造成 的 重复 现象 以 及 没有 提供 任何 信息 状 
态 的 现象 ) ,为 了 保证 数据 的 准确 性 ,删除 了 其 中 权重 
小 于 10 的 边 ,以 及 只 有 孤立 的 结 点 ,一 定 程度 上 剔除 
了 合作 的 随机 性 和 偶然 性 ,最 终 得 到 了 177 个 结 点 ， 
564 条 边 的 合作 网 络 , 见 图 3。 

经 计算 ,该 网 络 密 度 为 0. 0210, 聚 类 系数 为 
0.542 ,该 网 络 呈 现 的 是 以 部 分 度 值 较 高 的 研究 机 构 为 
局 部 中 心 点 的 紧密 的 ,大 范围 和 小 范围 都 存在 的 合作 
关系 ,说明 这 些 机 构 凝 聚 程度 很 高 ， 
ies 知识 整合 广度 高 。 此 外 ,与 该 核心 网 络 相 连 

点 还 形成 了 以 Johns Hopkins te nan of 
pe National Cancer Institute ( NCI) 等 为 局 部 中 
心 点 的 合作 小 网 络 ,同时 网 络 周围 还 存在 较 多 散在 的 
合作 对 。 
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E8 年 中 参与 合作 的 有 1 649 个 机 构 共 发 表 了 45 460 篇 
诊 汰 ,同样 笔者 删除 合作 次 数 小 于 10 的 边 ,以 及 孤立 的 结 
版 移 建 了 包含 25 个 结 点 ,48 条 边 的 合作 网 络 , 见 图 4。 
经 计算, 该 网 络 密度 为 0.0104 ,密度 较 小 , 聚 类 系数 为 
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0.426 ,说明 这 些 机 构 存 在 部 分 人 联系 紧密 的 合作 团队 ,但 
相互 之 间 缺 乏 广泛 合作 ,知识 整合 广度 和 知识 整合 效率 不 
高 ,合作 模式 单一 ,缺乏 能 够 连接 不 同 合 车 群体 桥梁 的 作 
者 ,缺乏 知识 创新 速度 和 可 持续 性 的 有 力 保障 。 
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5.2.2 典型 小 团体 网 络 分 析 对 这 些 网 络 进行 局 部 
研究 ,在 论文 合作 网 络 中 ,两 两 机 构 合 作 的 情况 最 多 
(更 多 的 是 机 构 内 部 的 合作 ,这 里 不 予 考虑 ) ,其 中 合 
作 最 多 的 是 CNPq 和 Fundação de Amparo à Pesquisa JÉ 
成 的 科研 团队 。 在 试验 项 目 合作 中 ,通过 上 k - 核 的 分 
pr ,一 些 紧密 团结 在 一 起 的 群体 ,其 中 最 大 的 一 个 群体 
是 如 图 5 中 的 3 个 , k 值 为 8 ,说 明 每 个 机 构 都 至 少 与 
其 他 8 人 产生 合作 关系 。 第 一 大 子 群 中 9 个 机 构 的 颜 
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色 一 样 ,并 没有 特别 明显 的 核心 人 物 ,但 频繁 进行 合 
作 。 网 络 中 第 二 大 和 第 三 大 子 群 分 别 以 UMC Utrecht 
(荷兰 最 大 的 大 学 医疗 中 心 之 一 ) 和 Seoul national Uni- 
versity Hospital( 首尔 大 学 ) 为 核心 的 合作 网 络 ,他 们 两 
个 机 构 是 两 个 子 群 交流 的 主要 枢纽 。 论 文 合作 网 络 主 
要 以 两 两 合作 现象 为 主 ,可 探究 的 信息 相 比 试验 项 目 
合作 网 络 要 少 很 多 ,足以 发 现 试验 合作 网 络 对 一 个 学 
科 发 展 的 意义 。 


徐 w, 何 琳 ， 邵 波 . Æ 基于 科学 数据 的 合作 网 络 
62(15) :83 - 91. 
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很 有 可 能 由 于 其 科研 能 力 .设备 水 平 、 科 研 人 员 水 平 而 
使 得 其 他 机 构 愿 意 与 之 合作 ,其 相对 中 心 度 为 10. 336， 


5.3.1 点 度 度 中 心性 点 度 中 ， 心性 分 为 两 类 :绝对 中 心 
度 和 相对 中 心 度 ,其 中 相对 中 心 度 则 是 比较 不 同 网 络 


的 结 点 中 心性 的 指标 5 。 利 用 Ucinet 的 Degree 算法 


对 机 个 网 络 进行 分 析 , 见 表 4( 表 中 仅 列 出 排名 前 10 
MB). MAŻ 


吉 果 中 笔者 可 以 看 出 nt 心 


寸 合 作 试 验 ,其 知识 扩散 能 力 强 。 可 以 看 出 Johns 
Hopkins University 在 临床 试验 的 网 络 中 的 地 位 很 高 ， 


而 在 论文 网 络 中 Beijing Chao Yang Hospital 的 点 度 中 
心 度 最 高 ,其 相对 点 度 中 心 度 为 5. 522 ,前 者 远 远 高 于 
后 者 ,说 明 前 者 对 试验 合作 网 的 支配 能 力 可 能 大 于 后 
者 对 论文 合作 网 的 支配 能 力 。 合 作 试验 多 的 机 构 并 不 
是 合作 发 文 多 的 ,论文 点 度 中 心 度 和 试验 点 度 中 心 度 
不 呈现 显著 相关 (r =0.479,P >0.05), 也 就 是 说 , 合 
作 论 文 的 机 构 数量 与 合作 试验 的 机 构 数量 不 相关 。 


= 表 4 合作 试验 (文献 ) 点 度 中 心 度 

试验 机 构 绝对 相对 论文 机 构 绝对 相对 

> Johns Hopkins University 360. 00 10. 336 Beijing Chao Yang Hospital 91. 00 5.522 
N University of California, San Francisco 353. 00 10. 135 Hospital Universitario Ramon y Cajal 88. 00 5.340 
aky Massachusetts General Hospital 335. 00 9.618 St. Joseph’ s Hospital and Medical Center, Phoenix 87.00 5.279 
2 National Cancer Institute ( NCI) 320. 00 9.187 Harvard University 87.00 5.279 
DC Columbia University 315. 00 9. 044 DokuzEylul University 86.00 5.218 
a Duke University 307.00 8.814 Ministry of Health, Spain 85.00 5.158 

m =a National Institutes of Health ( NIH ) 292.00 8.384 Shionogi 85.00 5.158 
£ Stanford University 291.00 8.355 Aurora Health Care 85.00 5.158 
Q Mayo Clinic 286.00 8.211 Flevoziekenhuis 83.00 5.036 
10 University of Michigan 286.00 8.211 Seventh Framework Programme 79.00 4.794 

5.3.2. 中 间 中 心性 中 间 中 心性 用 来 测量 的 是 机 构 ”中 心性 分 析 , 如 表 5 所 示 : 
对 资源 掌控 的 程度 。 对 论文 网 络 和 试验 网 络 进行 中 间 
表 5 合作 试验 (文献 ) 中 间 中 心 度 

排名 试验 机 构 绝对 相对 论文 机 构 绝对 相对 

1 Fudan University 193 788.203 3.196 Flevoziekenhuis 203.229 0.015 

2 Pfizer 183 065.969 3.019 St. Joseph's Hospital and Medical Center, Phoenix — 188.352 — 0.014 

3 Karolinskalnstitutet 161 705.375 | 2.667 Triemli Hospital 166.654 0.012 

4 National Cancer Institute ( NCI) 161 601.656 . 2.665 Kangdong Sacred Heart Hospital 164.038 — 0.012 

5 University of California, San Francisco 148 560.047 2.450 Naval Medical Research Center 152. 995 .011 

6 Canadian Institutes of Health Research (CIHR ) 142 747.297 | 2.354 Beijing Chao Yang Hospital 151.954 0.011 

7 Johns Hopkins University 134 332.203 2.215 Hospital Universitario Romany Cajal 151.576 — 0.010 

8 Merck Sharp &Dohme Corp. 130 519.664 2.152 Catholic University, Italy 141.704 0.010 

9 GlaxoSmithKline 124 497.781 | 2.053 University of Cologne 140.203 0.010 

10 Massachusetts General Hospital 119 528.078 — 1.971 Daegu Catholic University Medical Center 138.215 0.010 
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首先 是 试验 机 构 网 络 的 中 介 中 心 度 ,最 高 的 是 Fu- 
dan University ,其 次 是 Pfizer „Karolinska Institute , Nation- 
al Cancer Institute ( NCI) 等 机 构 ,这 些 机 构 的 中 介 中 心 
度 比较 高 ,说明 他 们 掌握 了 很 多 的 研究 资源 ,有 一 部 分 
机 构 的 中 介 中 心 度 接近 于 0, 共 有 302 个 ,这 些 机 构 不 
具备 控制 资源 的 能 力 , 占 机 构 总 数 9. 12% 。 论 文 机 构 
网 络 中 介 中 心 度 ,最 高 的 是 Flevoziekenhuis , St. Joseph ' 
s Hospital and Medical Center 和 Phoenix Triemli Hospital 
紧 随 其 后 ,两 极 分 化 现象 严重 ,其 中 中 介 中 心 度 为 0 的 
有 1514 个 , 占 总 数 1 674 个 的 90.44% , 少 于 10 的 占 
91. 63% 。 可 以 明显 发 现实 验 机 构 网 络 中 中 间 中 心性 
为 0 的 机 构 比 论文 机 构 网 络 中 要 少 很 多 ,说 明 在 论文 
网 络 中 影响 力 较 强 的 “中 间 人 ”机 构 较 少 , 对 网 络 中 其 
他 大 的 合作 关系 控制 力 强度 不 够 ,出 现 这 一 结果 的 原 


司 样 反映 出 专利 存在 的 可 能 性 。 


OO 本 研 究 通 过 对 被 ClinicalTrials. gov 网 站 收录 临床 
试 允 数据 的 合作 情况 进行 文献 计量 和 网 络 分 析 , 在 控 
营 志 验 项 目 合作 情况 的 同时 ,对 比分 析 了 基于 试验 发 
表 玛 文 的 情况 ,得 出 论文 合作 情况 和 数据 集合 作 情 况 
蕉 遍 作 文献 量 .合作 率 等 计量 测度 以 及 密度 .中 心性 分 
析 z 平 均 路 径 等 网 络 测度 上 的 异同 ,揭示 出 两 种 合作 网 
乡 旺 区 别 和 内 部 联系 ,从 而 为 后 续 的 科学 合作 和 技术 
合 疾 研 究 提供 独特 视角 。 主 要 结论 如 下 
"三 (1) 项 目 合作 总 体 情况 。2008 年 - 2016 年 期 间 ， 
临 恨 医学 领域 内 机 构 的 合作 规模 以 及 平均 每 个 机 构 所 
做 的 项 目 数 呈现 上 升 的 趋势 ,合作 的 密度 也 在 逐年 增 
加 ,说 明 在 该 领域 数据 集 的 合作 意识 在 不 断 加 强 ,但 是 
合作 的 广度 欠缺 ,具有 明显 的 抱团 现象 , 主要 以 几 个 合 
作 机 构 为 中 心 进行 合作 ,节点 度数 最 多 的 机 构 并 不 是 
中 心 度 最 高 的 机 构 ,说 明 合作 次 数 最 多 的 机 构 只 与 固 
定 的 几 个 机 构 进行 合作 ,而 不 是 进行 广泛 的 合作 。 
(2) 基 于 论文 合作 网 络 对 试验 项 目 合作 网 络 的 分 
析 。 现 如 今 “第 四 范式 ”的 发 展 正在 影响 着 科学 合作 
的 规模 与 结构 ,也 在 支持 着 跨国 跨 领 域 跨 机 构 的 合作 。 
本 文 提出 科学 数据 的 元 数据 比 仅 使 用 出 版 物 元 数据 能 
提供 更 多 关于 科学 家 合作 行为 信息 的 猜想 ,由 上 文 可 
以 看 出 ,这 个 假设 是 成 立 ,例如 基于 中 心性 的 分 析 , 在 
两 个 网 络 中 点 度 中 心性 和 中 间 中 心性 排名 前 十 的 机 构 
是 不 一 样 的 ,其 至 差别 很 大 ,合作 项 目 最 多 的 团体 并 不 
是 合作 论文 最 多 的 团体 ,如 果 仅仅 通过 论文 来 探究 合 
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作 特 征 , 就 会 出 现 很 大 的 误差 ,尤其 很 多 机 构 在 试验 项 
目 中 进行 了 紧密 的 合作 ,但 是 并 没有 发 表 相应 的 论文 ， 
可 能 选择 了 发 表 相 关 的 专利 ,这 种 情况 在 临床 试验 领 
域 中 非常 普遍 。 同 时 ,科学 家 相对 于 首先 在 出 版 物 上 
合作 ,更 可 能 在 正式 出 版 合作 之 前 就 在 数据 集 上 合作 ， 
毕竟 产生 的 数据 只 是 研究 过 程 中 的 一 部 分 ,发 表 出 版 
物 才 是 最 后 的 目的 ,因此 往往 实力 较 弱 的 机 构 更 倾向 
于 试验 的 合作 。 

论文 和 科学 数据 作为 科学 研究 的 两 大 产 出 ,在 计 
量 学 中 ,对 论文 和 数据 集 的 研究 是 平行 的 .可 比 的 。 目 
前 ,情报 学 界 对 基于 科学 数据 集 探 究 合作 网 络 方面 的 
研究 还 有 竺 加 强 ,本 研究 从 网 络 分 析 层 面 初步 解读 了 
论文 合作 网 和 数据 集合 作 网 的 差异 ,是 论文 和 数据 集 
比较 研究 的 尝试 ,也 为 该 研究 提供 一 个 新 的 视角 ,也 揭 
示 了 科学 数据 的 重要 性 ,有 必要 加 强 和 规范 科学 数据 
管理 以 适应 大 数据 的 发 展 形 势 。 
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Oabstract : [ Purpose/significance] Based on the scientific data, we constructed a new collaboration network and 
compared with cooperative network of traditional publications. By exploring the differences of the two collaboration network 
from the perspective of network analysis, this paper provided reference for scientific data management. [ Method/ 
process | Taking clinical science database of ClinicalTrials. gov website as an example, this paper used crawler technology 
to capture the metadata of traditional publication and clinical trial research. Then, based on these two kinds of metadata, 
this paper constructed different cooperative networks respectively. Finally, it used complex network analysis to explore 
these networks to compare the similarities and differences between two networks. | Result/conclusion | Scientific collabo- 
ration network extracted metadata from a scientific repository and publication could provide richer and more accurate infor- 
mation of collaboration than just using metadata from publications alone. This paper reveals the importance of scientific da- 
ta management and open sharing. 
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